Apprentissage de représentations de documents et leur exploitation en recherche d'information

نویسندگان

Thiziri Belkacem

Mohand Boughanem

Taoufiq Dkaki

Jose G. Moreno

چکیده

In order to perform the document-query similarity, many information retrieval (IR) models represent documents and queries as sets of weighted key words, called « bag of words », or a bag of concepts derived from a linguistic ontology, or constructed automatically by LSI or LDA techniques, to fill the gap between the query vocabulary and the one used in the document. Recent approaches propose to model the term as an embedded vector, called word2vec approaches, allowing to capture relations beyond the co-occurrence by modelling semantic relations between the terms. In this article, we present the state of the art about this topic, as well as our contribution to integrate these approaches within IR models. MOTS-CLÉS : Recherche d’information, apprentissage profond, word2vec, représentations sémantiques.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Apprentissage d'ordonnancements en recherche d'information structurée

RÉSUMÉ. Nous présentons un modèle d’apprentissage pour la Recherche d’Information Structurée qui ajuste automatiquement ses paramètres grâce à un ensemble d’exemples étiquetés composé de requêtes et de jugements de pertinence sur un ensemble de parties de documents. Notre modèle améliore la performance d’un système de base de Recherche d’Information en optimisant un critère de coût d’ordonnance...

متن کامل

Exploitation des contributions des usagers liées au social bookmarking pour améliorer la Recherche d'Information

RÉSUMÉ. Les moteurs de recherche communs exploitent le contenu des documents qu’ils indexent. Or, les internautes créent également des données explicites (tags, annotations, commentaires, notes, données de géoréférencement, etc.) et implicites (clics, logs, etc.) qu’il semble utile de prendre en compte pour améliorer l’indexation. Nos travaux concernent actuellement deux problématiques. Premièr...

متن کامل

Texte et Représentation en Recherche d'Information

Les performances des modèles de Recherche d'Information (RI) sont for-tement liées à leur capacité à représenter le texte. Ces dernières années, portés par les succès en reconnaissance d'image et de parole, de nombreux modèles basés sur les réseaux de neurones et les représentations distri-buées des mots et phrases sont apparus. Quelques modèles ont essayé d'aborder le problème de la RI, dont u...

متن کامل

Recherche d'information orientée contenu dans les documents XML par agrégation partielle des sources de pertinence

La recherche d’information (RI) orientée contenu dans les documents semistructurés de type XML met en relation un besoin en information exprimé sous forme d’une requête sur le contenu recherché (liste de mots-clés) et une collection de document XML. Le système de recherche doit répondre en retournant non pas des documents entiers, mais juste des fragments de documents (des éléments XML) pertine...

متن کامل

Apprentissage par analyse linéaire discriminante des paramètres de fusion pour la recherche d'information multimédia texte-image

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2017

Apprentissage de représentations de documents et leur exploitation en recherche d'information

نویسندگان

چکیده

منابع مشابه

Apprentissage d'ordonnancements en recherche d'information structurée

Exploitation des contributions des usagers liées au social bookmarking pour améliorer la Recherche d'Information

Texte et Représentation en Recherche d'Information

Recherche d'information orientée contenu dans les documents XML par agrégation partielle des sources de pertinence

Apprentissage par analyse linéaire discriminante des paramètres de fusion pour la recherche d'information multimédia texte-image

عنوان ژورنال:

اشتراک گذاری